16.6 Параметрические оценки

Различные типы распределений, описанные в предыдущих параграфах, применяются в качестве теоретических моделей в задачах, связанных со случайностью и неопределённостью. Однако на практике далеко не всегда ясно, какое именно распределение моделирует имеющиеся в наличии данные. А если из каких-либо соображений тип распределения всё же установлен, то следующая задача — оценить параметры этого распределения, например, среднее и/или дисперсию в случае гауссовского распределения N(μ,σ2)\mathcal N(\mu, \sigma^2).

Подобными обратными по отношению к теории вероятностей задачами занимается математическая статистика. Типичный пример статистической задачи: по числовой выборке X1,,XnX_1, \ldots, X_n оценить параметры распределения, из которого они были получены. Обычно предполагается, что выборка i.i.d. (independent and identically distributed), то есть представляет собой независимые реализации случайной величины с одним и тем же распределением. Параметр этого определения θ\theta может быть числом или вектором; оценку этого параметра по выборке X1,,XnX_1, \ldots, X_n обычно обозначают θ^(X1,,Xn)\widehat \theta(X_1, \ldots, X_n) или просто θ^\widehat \theta.

Предельные теоремы

Как правило, чем больше размер выборки, тем более информативны параметрические оценки вида θ^(X1,,Xn)\widehat \theta(X_1, \ldots, X_n). Теоретические свойства таких оценок при nn\to\infty устанавливаются с помощью предельных теорем теории вероятностей.

Закон больших чисел

Внимательный читатель мог обратить внимание, что в ряде примеров из предыдущих параграфов параметры некоторых распределений почему-то молчаливо подменялись средними значениями. Так мы поступили в задаче о показе рекламы, взяв в качестве параметра пуассоновского распределение среднее количество кликов пользователей. Фактически мы оценили неизвестный параметра λ\lambda средним по выборке:

λ^=1nk=1nXk.\widehat\lambda = \frac 1n \sum\limits_{k=1}^n X_k.

В общем-то это кажется логичным, поскольку λ=Eξ\lambda = \mathbb E\xi, если ξPois(λ)\xi \sim \mathrm{Pois}(\lambda). Однако у такой оценки есть также мощное теоретическое обоснование.

Теорема (Закон больших чисел, ЗБЧ). Пусть X1,X2,X_1, X_2, \dots – последовательность попарно независимых одинаково распределенных случайных величин с конечным математическим ожиданием μ\mu. Тогда для любого ε>0\varepsilon > 0

limnP(Xnμ>ε)=0, где Xn=1nk=1nXk. \lim\limits_{n \to \infty} \mathbb{P}(|\overline{X}_n - \mu| > \varepsilon) = 0, \text{ где } \overline{X}_n = \frac{1}{n}\sum\limits_{k = 1}^n X_k.

Таким образом, чем больше размер выборки nn, тем менее вероятно отклонение выборочного среднего Xn\overline{X}_n от истинного среднего μ\mu на любое число ε>0\varepsilon > 0.

Закон больших чисел особенно легко обосновать для случая конечных дисперсий: VXk=σ2<+\mathbb V X_k = \sigma^2 < +\infty. Имеем

EXn=1nk=1nEXk=μ,VXn=1n2k=1nVXk=σ2n. \mathbb E \overline{X}_n = \frac 1n \sum\limits_{k=1}^n \mathbb EX_k = \mu, \quad \mathbb V \overline{X}_n = \frac 1{n^2} \sum\limits_{k=1}^n \mathbb VX_k = \frac{\sigma^2}n.

Отсюда видно, что limnVXn=0\lim\limits_{n\to\infty} \mathbb V \overline{X}_n = 0, поэтому при больших nn распределение случайной величины VXn\mathbb V \overline{X}_n всё больше похоже на распределение, сосредоточенное в одной лишь точке μ\mu. Формально же утверждение ЗБЧ получается с помощью неравенства Чебышева:

P(Xnμ>ε)VXnε=σ2nε0,n. \mathbb{P}\big(\vert \overline{X}_n - \mu\vert > \varepsilon\big) \leqslant \frac{\mathbb{V} \overline{X}_n}{\varepsilon} = \frac{\sigma^2}{n \varepsilon} \to 0, \quad n\to\infty.

Закон больших чисел допускает следующее усиление.

Теорема (Усиленный закон больших чисел, УЗБЧ). Пусть X1,X2,X_1, X_2, \dots – последовательность попарно независимых одинаково распределенных случайных величин с конечным математическим ожиданием μ\mu. Тогда выборочное среднее Xn\overline{X}_n почти наверное сходится к μ\mu, т.е.
P(limnXn=μ)=1\mathbb P\big(\lim\limits_{n\to\infty}\overline{X}_n = \mu\big) = 1.

Замечание о типах сходимостей случайных величин

Последовательность случайных величин (Xn)(X_n), nNn\in\mathbb N, сходится к случайной величине XX

  1. по распределению, XnDXX_n \stackrel{D}{\to} X, если FXn(x)FX(x)F_{X_n}(x) \to F_X(x);
  2. по вероятности, XnPXX_n \stackrel{P}{\to} X, если limnP(XnX>ε)=0\lim\limits_{n \to \infty} \mathbb{P}(\vert X_n - X\vert > \varepsilon) = 0 для любого ε>0\varepsilon > 0;
  3. почти наверное, Xnп.н.XX_n \stackrel{\text{п.н.}}{\to} X, если P(limnXn=X)=1\mathbb P\big(\lim\limits_{n\to\infty}X_n = X\big) = 1;
  4. в среднем квадратичном, XnL2XX_n \stackrel{L_2}{\to} X, если limnE(XnX)2=0\lim\limits_{n \to \infty} \mathbb E(X_n - X)^2=0.

Известно, что

  • из сходимости по вероятности вытекает сходимость по распределению, XnPX    XnDXX_n \stackrel{P}{\to} X \implies X_n \stackrel{D}{\to} X;
  • из сходимость почти наверное следует сходимость по вероятности, Xnп.н.X    XnPXX_n \stackrel{\text{п.н.}}{\to} X \implies X_n \stackrel{P}{\to} X;
  • сходимость в среднем квадратичном влечёт сходимость по вероятности, XnL2X    XnPXX_n \stackrel{L_2}{\to} X \implies X_n \stackrel{P}{\to} X.

А вот из сходимости по вероятности, вообще говоря, не следует сходимость почти наверное (контрпример можно посмотреть здесь).

Закон больших чисел утверждает, что выборочное среднее сходится по вероятности к истинному среднему. А согласно УЗБЧ имеет место более сильный тип сходимости — почти наверное.

Теорема Муавра-Лапласа

Доска Гальтона иллюстрирует биномиальное распределение. До поворота на ее дне лежит множество маленьких шариков. Сразу после переворота шарики проходят через 10 рядов гладких круглых препятствий. Преодоление каждого препятствия можно рассматривать как испытание Бернулли: с равными вероятностями шарик может пойти как налево, так и направо. Поэтому финальное положение шарика в одной из 10 корзин является приблизительной реализацией биномиального распределения Bin(10,0.5)\mathrm{Bin}(10, 0.5).

Уже при n=10n=10 биномиальное распределение напоминает нормальное. И действительно, чем больше nn, тем лучше дискретная случайная величина ξBin(n,p)\xi \sim \mathrm{Bin}(n, p) аппроксимируется непрерывной гауссианой N(np,np(1p))\mathcal N\big(np, np(1-p)\big).

Теорема Муавра-Лапласа. Пусть ξBin(n,p)\xi \sim \mathrm{Bin}(n, p), q=1pq=1-p, тогда

limnP(a<ξnpnpqb)=12πabex22dx. \lim\limits_{n\to\infty} \mathbb P\Big(a < \frac{\xi - np}{\sqrt{npq}} \leqslant b\Big) = \frac 1{\sqrt{2\pi}} \int\limits_a^b e^{-\frac{x^2}2}\,dx.

Из теоремы Муавра-Лапласа вытекает, что при больших nn вероятность попадания биномиальной случайной величины ξBin(n,p)\xi \sim \mathrm{Bin}(n, p) в заданный интервал можно оценить как

P(A<ξB)Φ(Bnpnpq)Φ(Anpnpq). \mathbb P(A < \xi \leqslant B) \approx \Phi\Big(\frac{B - np}{\sqrt{npq}}\Big) - \Phi\Big(\frac{A - np}{\sqrt{npq}}\Big).

где Φ(z)\Phi(z) — функция распределения стандартного нормального распределения.

Центральная предельная теорема

При выводе закона больших чисел мы видели, что выборочное среднее Xn\overline X_n имеет среднее μ\mu и дисперсию σ2n\frac{\sigma^2} n. Но как именно выглядит распределение случайной величины Xn\overline X_n при увеличении nn? Оказывается, что оно становится всё больше похоже на N(μ,σ2n)\mathcal N\big(\mu, \frac{\sigma^2} n\big). Вот как, например, выглядят нормализованные гистограммы 50005000 выборочных средних, построенных по i.i.d. выборкам X1,,XnBin(30,0.3)X_1, \ldots, X_n \sim \mathrm{Bin}(30, 0.3) для разных значений nn:

Эти гистограммы и впрямь очень напоминают гауссианы, и это прямое следствие следующей теоремы.

Центральная предельная теорема, ЦПТ. Пусть X1,X2,X_1, X_2, \dots – последовательность попарно независимых одинаково распределенных случайных величин с конечным математическим ожиданием μ\mu и дисперсией σ2\sigma^2. Тогда

Zn:=n(Xnμ)σN(0,1) при n1. Z_n := \frac{\sqrt n(\overline X_n - \mu)}{\sigma} \approx \mathcal N(0, 1) \text{ при } n \gg 1.

Точнее говоря, limnP(Znz)=Φ(z)\lim\limits_{n\to\infty}\mathbb P(Z_n \leqslant z) = \Phi(z). Таким образом, случайная величина ZnZ_n сходится по распределению к N(0,1)\mathcal N(0,1): ZnDN(0,1)Z_n \stackrel{D}{\to} \mathcal N(0, 1).

Если применить центральную предельную теорему к бернуллиевским случайным величинам с вероятностью успеха pp, то вновь получим теорему Муавра-Лапласа.

Свойства параметрических оценок

Оценивать параметры можно по-разному, хочется делать это хорошо. Ценные свойства оценок, которые обычно желательны – это несмещенность и состоятельность.

Несмещённость

Каждый элемент i.i.d выборки X1,,XnX_1, \ldots, X_n можно рассматривать как значение случайной величины из некоторого распределения с неизвестным параметром θ\theta.
А раз так, то всякую оценку этого параметра θ^(X1,,Xn)\widehat\theta(X_1, \dots, X_n) также можно считать случайной величиной, у которой можно пытаться вычислять математическое ожидание, например.

Оценка θ^(X1,,Xn)\widehat\theta(X_1, \dots, X_n) параметра θ\theta называется несмещенной, если Eθ^=θ\mathbb{E}\widehat\theta = \theta. Несмещённость оценки означает, что она в среднем будет равна истинному значению параметра.

Интуитивно можно представлять себе несмещённость следующим образом: если мы нагенерим большое количество выборок X1(i),X2(i),,Xn(i)X_1^{(i)}, X_2^{(i)}, \dots, X_n^{(i)}, 1iN1\leqslant i \leqslant N, и для каждой посчитаем оценку θ^(i)\widehat \theta^{(i)}, то в среднем получится более или менее истинное значение параметра θ\theta: 1Ni=1Nθ^(i)θ\frac 1N\sum\limits_{i=1}^N \widehat \theta^{(i)} \approx \theta.

Простейший пример несмещённой оценки среднего значения θ\theta даёт выборочное среднее Xn=1nnXk\overline{X}n = \frac{1}{n}\sum\limits^n X_k, поскольку

EXn=1nk=1nEXk=1nnθ=θ. \mathbb E \overline{X}_n = \frac 1n \sum\limits_{k = 1}^n \mathbb E X_k = \frac 1n\cdot n\theta = \theta.

Медианой выборки X1,,XnX_1, \ldots, X_n называется средний член вариационного ряда, состоящего из отсортированных по возрастанию элементов выборки:

X(1)X(2)X(n). X_{(1)} \leqslant X_{(2)} \leqslant \ldots \leqslant X_{(n)}.

Если nn нечётно, n=2m+1n=2m+1, то есть ровно один элемент в середине вариационного ряда, именно он называется медианой: med(X1,,Xn)=X(m)=X(n+12)\mathrm{med}(X_1,\ldots, X_n) = X_{(m)} = X_{\big(\frac{n+1}2\big)}. При чётном n=2mn=2m в качестве медианы берут среднее двух центральных элементов вариационного ряда:

med(X1,,Xn)=12(X(m)+X(m+1))=12(X(n2)+X(n2+1)).\mathrm{med}(X_1,\ldots, X_n) = \frac 12(X_{(m)}+ X_{(m+1)}) = \frac 12 \big(X_{(\frac n2)} + X_{(\frac n2 + 1)}\big).

Упражнение. Дана i.i.d. выборка X1,,XnX_1, \ldots, X_n из равномерного распределения U[0,2θ]U[0,2\theta]. Докажите, что выборочная медиана даёт несмещённую оценку медианы распределения U[0,2θ]U[0,2\theta].

Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)

Если ξU[0,2θ]\xi \sim U[0,2\theta], то Eξ=med(ξ)=θ\mathbb E\xi = \mathrm{med}(\xi) = \theta. В секции про бета-распределение была найдена плотность kk-й порядковой статистики, посчитанной по выборке из равномерного распределения на [0,1][0,1]:

p(x)=n!(k1)!(nk)!xk1(1x)nk,0x1. p(x) = \frac{n!}{(k-1)!(n-k)!} x^{k-1}(1-x)^{n-k}, \quad 0 \leqslant x \leqslant 1.

Чтобы получить отсюда плотность kk-й порядковой статистики X(k)X_{(k)} для нашей выборки из U[0,2θ]U[0, 2\theta], сделаем линейную замену t=2θxt = 2\theta x. Тогда

pX(k)(t)=12θn!(k1)!(nk)!(t2θ)k1(1t2θ)nk, p_{X_{(k)}}(t) = \frac 1{2\theta}\frac{n!}{(k-1)!(n-k)!} \Big(\frac t{2\theta}\Big)^{k-1}\Big(1-\frac t{2\theta}\Big)^{n-k},

0t2θ. 0 \leqslant t \leqslant 2\theta.

Рассмотрим два случая. Если n=2m+1n = 2m+1, то выборочная медиана равна X(m+1)X_{(m+1)}, и

EX(m+1)=(2m+1)!m!(m+1)!02θ(t2θ)m+1(1t2θ)mdt. \mathbb E X_{(m+1)} = \frac{(2m+1)!}{m!(m+1)!}\int\limits_0^{2\theta} \Big(\frac t{2\theta}\Big)^{m+1} (1-\frac t{2\theta}\Big)^m\,dt.

Возвращаясь к переменной x=t2θx= \frac t{2\theta}, находим

EX(m+1)=2θ(2m)!m!(m1)!01xm+1(1x)mdx= \mathbb E X_{(m+1)} = 2\theta\frac{(2m)!}{m!(m-1)!}\int\limits_0^1 x^{m+1} (1-x)^m\,dx =

=2θ(2m+1)!m!(m+1)!B(m+2,m+1)=2θ(2m+1)!m!m!(m+1)!m!(2m+2)!=θ. = 2\theta\frac{(2m+1)!}{m!(m+1)!} B(m+2, m+1) =2\theta\frac{(2m+1)!}{m! m!} \frac{(m+1)!m!}{(2m+2)!} = \theta.

Если же n=2mn = 2m, то нам потребуется найти E(12(X(m)+X(m+1)))\mathbb E \big(\frac 12(X_{(m)} + X_{(m+1)})\big). Используя ту же самую замену x=t2θx= \frac t{2\theta}, получаем

EX(m)=2θ(2m)!m!(m1)!01xm(1x)mdx= \mathbb E X_{(m)} = 2\theta\frac{(2m)!}{m!(m-1)!}\int\limits_0^1 x^{m} (1-x)^m\,dx =

=2θ(2m)!m!(m1)!B(m+1,m+1)=2θ(2m)!m!(m1)!m!m!(2m+1)!=2θm2m+1; =2\theta\frac{(2m)!}{m!(m-1)!} B(m+1, m+1) =2\theta\frac{(2m)!}{m!(m-1)!}\frac{m!m!}{(2m+1)!} = \frac {2\theta m}{2m+1};

EX(m+1)=2θ(2m)!m!(m1)!01xm+1(1x)m1dx= \mathbb E X_{(m+1)} = 2\theta\frac{(2m)!}{m!(m-1)!}\int\limits_0^1 x^{m+1} (1-x)^{m-1}\,dx =

=2θ(2m)!m!(m1)!B(m+2,m)=2θ(2m)!m!(m1)!(m+1)!(m1)!(2m+1)!=2θ(m+1)2m+1. =2\theta\frac{(2m)!}{m!(m-1)!} B(m+2, m) =2\theta\frac{(2m)!}{m!(m-1)!}\frac{(m+1)!(m-1)!}{(2m+1)!} = \frac {2\theta(m+1)}{2m+1}.

Следовательно,

E(12(X(m)+X(m+1)))=12(EX(m)+EX(m+1))=θ(m2m+1+m+12m+1)=θ.\mathbb E \Big(\frac 12(X_{(m)} + X_{(m+1)})\Big) = \frac 12\Big(\mathbb E X_{(m)} + \mathbb EX_{(m+1)}\Big) = \theta \Big(\frac m{2m+1} + \frac {m+1}{2m+1}\Big) = \theta.

Итак, выборочная медиана — несмещённая оценка как медианы, так и среднего распределения U[0,2θ]U[0,2\theta].

В некоторых случаях оценка θ^n=θ^(X1,,Xn)\widehat\theta_n = \widehat\theta(X_1, \dots, X_n) смещена, но с ростом nn это смещение нивелируется. Если limnEθ^n=θ\lim\limits_{n\to\infty} \mathbb E\widehat\theta_n = \theta, то оценка θ^n\widehat\theta_n называется асимптотически несмещённой.

Упражнение. Пусть X1,,XnU[0,θ]X_1, \ldots, X_n \sim U[0, \theta] — i.i.d. выборка. Оценим параметр θ\theta как максимальное значение выборки:

θ^n=X(n)=max{X1,,Xn}.\widehat \theta_n = X_{(n)} = \max\{X_1, \ldots, X_n\}.

Является ли эта оценка несмещённой? Асимптотически несмещённой?

Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)

В силу свойства i.i.d. для 0xθ0\leqslant x \leqslant \theta имеем

P(X(n)x)=P(X1x,,Xnx)=k=1nP(X1x)=(xθ)n.\mathbb P(X_{(n)}\leqslant x) = \mathbb P(X_1 \leqslant x, \ldots, X_n \leqslant x) = \prod\limits_{k=1}^n \mathbb P(X_1 \leqslant x) = \Big(\frac x\theta\Big)^n.

Следовательно, плотность случайной величины θ^n=X(n)\widehat \theta_n = X_{(n)} равна nxn1θnn\frac {x^{n-1}}{\theta^n}, и поэтому

Eθ^n=nθn0θxndx=nθn+1. \mathbb E \widehat \theta_n = \frac n{\theta^n} \int\limits_0^\theta x^n\,dx = \frac {n\theta}{n+1}.

Отсюда видно, что оценка смещённая. Однако limnnθn+1=θ\lim\limits_{n\to\infty} \frac {n\theta}{n+1} = \theta, так что оценка θ^n\widehat \theta_n асимптотически несмещённая. Чтобы получить несмещённость в чистом виде, можно взять оценку θ~n=n+1nX(n)\tilde \theta_n = \frac{n+1}n X_{(n)}.

Состоятельность

Оценка θ^n=θ^(X1,,Xn)\widehat\theta_n = \widehat\theta(X_1, \dots, X_n) называется состоятельной, если она сходится по вероятности к θ\theta, θ^nPθ\widehat\theta_n \stackrel{P}{\to} \theta, то есть

limnP(θ^nθ>ε)=0 для любого ε>0. \lim\limits_{n \to \infty} \mathbb{P}(|\widehat\theta_n - \theta| > \varepsilon) = 0 \text{ для любого } \varepsilon > 0.

Cостоятельность означает, что с ростом размера выборки всё менее вероятны хоть сколько нибудь значимые отклонения оценки от истинного значения параметра.

Если i.i.d. выборка X1,,XnX_1, \ldots, X_n получена из распределения с конечным математическим ожиданием θ\theta, то в силу закона больших чисел выборочное среднее Xn\overline{X}_n является состоятельной оценкой для θ\theta.

Состоятельность оценки – независимое от несмещенности свойство: оценки могут быть состоятельными, но не несмещенными и наоборот. Например, оценка θ^n=X(n) \widehat \theta_n = X_{(n)} из предыдущего упражнения оказалась смещённой, однако, она состоятельна:

P(X(n)θ>ε)=P(X(n)<θ+ε)= \mathbb P(\vert X_{(n)} - \theta\vert > \varepsilon) = \mathbb P(X_{(n)} < \theta + \varepsilon) =

=(θεθ)n=(1εθ)n0,n. = \Big(\frac{\theta - \varepsilon}{\theta}\Big)^n = \Big(1 - \frac \varepsilon\theta\Big)^n \to 0, n\to\infty.

Упражнение. Приведите пример несмещённой оценки, не являющейся состоятельной.

Имея i.i.d. выборку X1,,XnX_1, \ldots, X_n из невырожденного распределения с конечным средним θ\theta, оценим это среднее как θ^=X1\widehat \theta = X_1. Эта оценка, очевидно, несмещённая: Eθ^=EX1=θ\mathbb E \widehat \theta = \mathbb EX_1 = \theta. Состоятельной, однако, она не является, ведь выражение

P(θ^θ>ε)=P(X1θ>ε) \mathbb P(\vert \widehat \theta - \theta\vert > \varepsilon) = \mathbb P(\vert X_1 - \theta\vert > \varepsilon)

никоим образом не зависит от nn. Следовательно, состоятельность оценки θ^\widehat \theta означала бы, что P(X1θ>ε)=0\mathbb P(\vert X_1 - \theta\vert > \varepsilon)=0 для любого ε>0\varepsilon >0. Такое возможно только для вырожденного распределения, сосредоточенного в одной лишь точке θ\theta: P(X1=θ)=1\mathbb P(X_1 = \theta) = 1.

Bias-variance decomposition

Смещение (bias) оценки θ^θ^n=θ^(X1,,Xn)\widehat{\theta}\equiv\widehat{\theta}_n = \widehat{\theta}(X_1,\ldots,X_n) определяется как

bias(θ^)=Eθ^θ.\mathrm{bias}(\widehat{\theta}) = \mathbb{E}\widehat{\theta} - \theta.

Смещение показывает, насколько оценка в среднем отклоняется от истинного значения. Оценка θ^n\widehat{\theta}_n

  • несмещённая, если bias(θ^n)=0\mathrm{bias}(\widehat{\theta}_n) = 0;
  • асимптотически несмещённая, если limnbias(θ^n)=0\lim\limits_{n\to\infty}\mathrm{bias}(\widehat{\theta}_n) = 0.

Среднеквадратичной ошибкой (mean squared error, MSE) оценки называется величина

MSE(θ^)=E(θ^θ)2.\mathrm{MSE}(\widehat{\theta}) = \mathbb{E}(\widehat{\theta} - \theta)^2.

Смещение, дисперсия и среднеквадратичная ошибка связаны между собой следующим соотношением (bias-variance decomposition):

MSE(θ^)=bias2(θ^)+V(θ^).\mathrm{MSE}(\widehat{\theta}) = \text{bias}^2(\widehat{\theta}) + \mathbb{V}(\widehat{\theta}).

Доказательство

Имеем

MSE(θ^)=E(θ^θ)2=E(θ^Eθ^+Eθ^θ)2=\mathrm{MSE}(\widehat{\theta}) = \mathbb{E}(\widehat{\theta} - \theta)^2 = \mathbb{E}\big(\widehat{\theta} - \mathbb E\widehat\theta + \mathbb E\widehat\theta - \theta\big)^2=

=E(θ^Eθ^)2+2E(θ^Eθ^)(Eθ^θ)+E(Eθ^θ)2==\mathbb{E}\big(\widehat{\theta} - \mathbb E\widehat\theta\big)^2 + 2\mathbb{E}(\widehat{\theta} - \mathbb E\widehat\theta)(\mathbb E\widehat\theta - \theta) + \mathbb{E}\big(\mathbb E\widehat\theta - \theta\big)^2 =

=V(θ^)+2(Eθ^Eθ^)(Eθ^θ)+bias2(θ^). = \mathbb{V}(\widehat{\theta}) + 2\big(\mathbb{E}\widehat{\theta} - \mathbb E\widehat\theta\big)\big(\mathbb E\widehat\theta - \theta\big) + \mathrm{bias}^2(\widehat{\theta}).

Среднее слагаемое здесь равно нулю, откуда и вытекает доказываемое равенство.

Упражнение. Докажите, что оценка θ^n\widehat{\theta}_n состоятельная, если она асимптотически несмещённая и limnV(θ^n)=0\lim\limits_{n\to\infty}\mathbb{V}(\widehat{\theta}_n) = 0.

Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)

С помощью неравенства Маркова получаем, что

P(θ^nθ>ε)P((θ^nθ)2ε2)E(θ^nθ)2ε2=MSE(θ^n)ε2.\mathbb{P}\big(\vert\widehat{\theta}_n - \theta\vert > \varepsilon\big)\leqslant \mathbb{P}\big((\widehat{\theta}_n - \theta)^2 \geqslant \varepsilon^2\big)\leqslant \frac{\mathbb{E}(\widehat{\theta}_n - \theta)^2}{\varepsilon^2} = \frac{\mathrm{MSE}(\widehat\theta_n)}{\varepsilon^2}.

По условию оба слагаемых в формуле bias-variance decomposition стремятся к нулю,

MSE(θ^n)=bias2(θ^n)+V(θ^n)0,n,\mathrm{MSE}(\widehat\theta_n) = \mathrm{bias}^2(\widehat{\theta}_n) + \mathbb{V}(\widehat{\theta}_n) \to 0, \quad n\to \infty,

и поэтому limnP(θ^nθ>ε)=0\lim\limits_{n\to\infty}\mathbb{P}\big(\vert\widehat{\theta}_n - \theta\vert > \varepsilon\big) = 0 при любом фиксированном ε>0\varepsilon > 0.

Таким образом, если limnMSE(θ^n)=0\lim\limits_{n\to\infty}\mathrm{MSE}(\widehat{\theta}_n) = 0, то оценка θ^n\widehat{\theta}_n параметра θ\theta асимптотически несмещённая и состоятельная.

Асимптотическая нормальность

Стандартным отклонением оценки θ^n\widehat{\theta}_n параметра θ\theta называется корень из дисперсии:

se(θ^n)=Vθ^n. \mathrm{se}(\widehat{\theta}_n) = \sqrt{\mathbb V \widehat{\theta}_n}.

Оценка θ^n\widehat{\theta}_n асимптотически нормальна, если θ^nθse(θ^n)DN(0,1)\frac{\widehat{\theta}_n - \theta}{\mathrm{se}(\widehat{\theta}_n)} \stackrel{D}{\to} \mathcal N(0,1), т.е.

limnP(θ^nθse(θ^n)z)=Φ(z). \lim\limits_{n\to\infty}\mathbb P\Big(\frac{\widehat{\theta}_n - \theta}{\mathrm{se}(\widehat{\theta}_n)} \leqslant z\Big) = \mathbb \Phi(z).

Согласно центральной предельной теореме выборочное среднее i.i.d. выборки из распределения с конечными средним μ\mu и дисперсией σ2\sigma^2 является асимптотически нормальной оценкой параметра μ\mu.

Эффективность

Пусть θ^\widehat{\theta} и θ~\tilde{\theta} — несмещённые оценки параметра θ\theta. Оценка θ^\widehat{\theta} эффективнее оценки θ~\tilde{\theta}, если Vθ^<Vθ~\mathbb V\widehat{\theta} < \mathbb V\tilde{\theta}. Такое определение эффективности вполне логично, ведь чем меньше дисперсия несмещённой оценки, тем меньше у неё шансов удалиться куда-то далеко от истинного значения параметра.

Пример. Пусть X1,,XnX_1, \ldots, X_n — i.i.d. выборка из распределения U[0,2θ]U[0, 2\theta]. Какая оценка параметра θ\theta эффективнее: выборочное среднее или медиана?

Несмещённость оценок θ^=Xn\widehat{\theta} = \overline X _n и θ~=med(X1,,Xn)\tilde{\theta} = \mathrm{med}(X_1, \ldots, X_n) уже была показана выше.

Найдём дисперсию наших оценок. Диспресия случайной величины ξU[0,2θ]\xi \sim U[0, 2\theta] равна Vξ=θ23\mathbb V \xi = \frac{\theta^2}{3}, следовательно, Vθ^=θ23n\mathbb V \widehat \theta = \frac{\theta^2}{3n}.

Найти дисперсию медианы несколько сложнее. Ограничимся случаем n=2m+1n = 2m+1. Тогда θ~=X(m+1)\tilde{\theta} = X_{(m+1)}, и

Eθ~2=EX(m+1)=12θ(2m+1)!(m!)202θx2(x2θ)m(1x2θ)mdx. \mathbb E\tilde{\theta}^2 = \mathbb E X_{(m+1)} = \frac 1{2\theta}\frac{(2m+1)!}{(m!)^2} \int\limits_0^{2\theta} x^2 \Big(\frac x{2\theta}\Big)^{m}\Big(1-\frac x{2\theta}\Big)^{m}\,dx.

С помощью замены t=x2θt = \frac x{2\theta} отсюда находим, что

Eθ~2=(2m+1)!(m!)2014θ2tm+2(1t)m\mathbb E\tilde{\theta}^2 = \frac{(2m+1)!}{(m!)^2}\int\limits_0^1 4\theta^2t^{m+2}(1-t)^m\,

dt=4θ2(2m+1)!(m!)2B(m+3,m+1)=dt =4\theta^2 \frac{(2m+1)!}{(m!)^2} B(m+3, m+1) =

=4θ2(2m+1)!(m!)2(m+2)!m!(2m+3)!=2θ2m+22m+3=θ2+θ2n+3.=4\theta^2 \frac{(2m+1)!}{(m!)^2} \frac{(m+2)!m!}{(2m+3)!} = 2\theta^2 \frac{m+2}{2m+3} = \theta^2 + \frac{\theta^2}{n+3}.

Следовательно, Vθ~=θ2n+3\mathbb V\tilde{\theta} = \frac{\theta^2}{n+3}, что при n>1n>1 больше, чем
Vθ^=θ23n\mathbb V \widehat \theta = \frac{\theta^2}{3n}, так что выборочное среднее эффективнее
медианы (примерно в 3\sqrt 3 раз при больших nn, если считать по отношению стандартных отклонений).

Несмотря на то что в плане эффективности среднее оказалось предпочтительнее в этом примере,
в статистике медиану любят за бОльшую устойчивость к выбросам.

Ниже приведён scatter-plot, по которому можно наглядно оценить меру разброса среднего и медианы выборки из равномерного распределения на отрезке [0,2θ][0, 2\theta] для θ=5\theta = 5. Для построения этого графика были взяты 200200 i.i.d. выборок из U[0,10]U[0, 10] размера n=10,100,1000,10000n=10, 100, 1000, 10000, и для каждого nn посчитаны выборочное среднее и медиана. Эти статистики и задают координаты точки на графике. Разумеется, чем больше значение nn, тем кучнее локализованы точки вокруг среднего значения θ=5\theta = 5, совпадающего в данном случае с медианой. Как видно, облако точек сосредоточено вдоль прямой y=θ+3(xθ)y = \theta + \sqrt 3(x - \theta).

Выборочная дисперсия

Как мы уже убедились, выборочное среднее Xn=1nk=1nXk\overline{X}_n = \frac{1}{n}\sum\limits_{k = 1}^n X_k представляет собой несмещённую и состоятельную оценку для математического ожидания. Можно ли то же самое сказать про выборочную дисперсию

Sn=1nk=1n(XkXn)2 \overline S_n = \frac{1}{n} \sum\limits_{k = 1}^n (X_k - \overline{X}_n)^2

в предположении, что i.i.d. выборка X1,,XnX_1, \ldots, X_n состоит из реализаций случайной величины ξ\xi с конечными моментами Eξ=θ1\mathbb E\xi = \theta_1 и Eξ2=θ2\mathbb E\xi^2 = \theta_2?

Прежде всего раскроем скобки и перепишем Sn\overline S_n в виде

Sn=1nk=1n(Xk22XkXn+(Xn)2)= \overline S_n = \frac{1}{n} \sum\limits_{k = 1}^n \big(X_k^2 - 2X_k \overline{X}_n + (\overline{X}_n)^2\big) =

=1nk=1nXk22(Xn)2+(Xn)2=X2n(Xn)2, = \frac{1}{n} \sum\limits_{k = 1}^n X_k^2 - 2 (\overline{X}_n)^2 + (\overline{X}_n)^2 = \overline{X^2}_n - (\overline{X}_n)^2,

где X2n=1nk=1nXk2\overline{X^2}_n = \frac 1n\sum\limits_{k = 1}^n X_k^2 — выборочное среднее, построенное по выборке X12,,Xn2X_1^2, \ldots, X_n^2. Оно несмещённое, поэтому EX2n=θ2\mathbb E \overline{X^2}_n = \theta_2. Заметим также, что

(Xn)2=1n2(k=1nXk)2=1n2k=1nXk2+2n21i<jnXiXj, (\overline{X}_n)^2 = \frac 1{n^2} \Big(\sum\limits_{k=1}^n X_k\Big)^2 = \frac 1{n^2} \sum\limits_{k=1}^n X_k^2 + \frac 2{n^2} \sum\limits_{1\leqslant i < j\leqslant n} X_iX_j,

откуда в силу независимости XiX_i и XjX_j при iji\ne j получаем

E(Xn)2=1nEX2n+2n21i<jnEXiEXj=θ2n+n1nθ12. \mathbb E(\overline{X}_n)^2 = \frac 1n \mathbb E\overline{X^2}_n + \frac 2{n^2} \sum\limits_{1\leqslant i < j\leqslant n} \mathbb E X_i \mathbb E X_j= \frac{\theta_2}n + \frac{n-1}n\theta_1^2.

Итак,

ESn=θ2θ2nn1nθ12=n1nVξ. \mathbb E\overline S_n = \theta_2- \frac {\theta_2}n - \frac{n-1}n\theta_1^2 = \frac{n-1}n \mathbb V\xi.

Таким образом, оценка дисперсии Sn\overline S_n смещённая (хотя и асимптотически несмещённая). По этой причине для оценки дисперсии часто используют аналогичную несмещённую оценку

σn=nn1Sn=1n1k=1n(XkXn)2, \overline \sigma_n = \frac n{n-1}\overline S_n = \frac{1}{n-1} \sum\limits_{k = 1}^n (X_k - \overline{X}_n)^2,

которую также называют выборочной дисперсией.

Обоснуем теперь состоятельность оценки Sn=X2n(Xn)2\overline S_n = \overline{X^2}_n - (\overline{X}_n)^2. Согласно закону больших чисел X2nPθ2\overline{X^2}_n \stackrel{P}{\to} \theta_2,
XnPθ1\overline{X}_n \stackrel{P}{\to} \theta_1. Здесь нам потребуется пара свойств сходимости по вероятности.

Упражнение. Пусть ξnPξ\xi_n \stackrel{P}{\to} \xi, ηnPη\eta_n \stackrel{P}{\to} \eta. Докажите, что ξn+ηnPξ+η\xi_n + \eta_n\stackrel{P}{\to} \xi + \eta.

Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)

Зафиксируем некоторое ε>0\varepsilon > 0. Поскольку ξnξ+ηnηξn+ηnξη\vert \xi_n - \xi\vert + \vert \eta_n - \eta\vert \geqslant \vert \xi_n + \eta_n - \xi - \eta\vert, то

P(ξn+ηnξη>ε)P(ξnξ+ηnη>ε). \mathbb P\big(\vert \xi_n + \eta_n - \xi - \eta\vert > \varepsilon\big) \leqslant \mathbb P\big(\vert \xi_n - \xi\vert + \vert \eta_n - \eta\vert > \varepsilon\big).

Далее, если ξnξ+ηnη>ε\vert \xi_n - \xi\vert + \vert \eta_n - \eta\vert > \varepsilon, то выполняется хотя бы одно из неравенств ξnξ>ε2\vert \xi_n - \xi\vert >\frac \varepsilon 2 и ηnη>ε2\vert \eta_n - \eta\vert >\frac \varepsilon 2. Следовательно,

P(ξn+ηnξη>ε)P(ξnξ>ε2)+P(ηnη>ε2). \mathbb P\big(\vert \xi_n + \eta_n - \xi - \eta\vert > \varepsilon\big) \leqslant \mathbb P\Big(\vert \xi_n - \xi\vert >\frac \varepsilon 2\Big) + \mathbb P\Big(\vert \eta_n - \eta\vert >\frac \varepsilon 2\Big).

Но последние две вероятности стремятся к нулю, так как ξnPξ\xi_n \stackrel{P}{\to} \xi и ηnPη\eta_n \stackrel{P}{\to} \eta. Следовательно, последовательность случайных величин ξn+ηn\xi_n + \eta_n сходится по вероятности к ξ+η\xi + \eta.

Упражнение. Пусть ξnPξ\xi_n \stackrel{P}{\to} \xi. Докажите, что ξn2Pξ2\xi_n^2 \stackrel{P}{\to} \xi^2.

Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)

Пусть 0<ε<10 < \varepsilon < 1 и δ>0\delta > 0. Выберем число M>1M>1 так, что P(ξ>M)<δ\mathbb P(\vert\xi\vert > M) < \delta. Если ξnξεM\vert \xi_n - \xi\vert \leqslant \frac\varepsilon M и ξM\vert \xi \vert \leqslant M, то

ξn2ξ2=ξnξξn+ξ=ξnξξnξ+2ξ \vert \xi_n^2 - \xi^2\vert = \vert \xi_n - \xi\vert \cdot\vert \xi_n + \xi\vert = \vert \xi_n - \xi\vert \cdot\vert \xi_n - \xi + 2\xi\vert \leqslant

εM(ξnξ+2ξ)εM(1+2M)<3ε. \leqslant\frac\varepsilon M(\vert \xi_n - \xi\vert + 2\vert \xi\vert) \leqslant \frac\varepsilon M(1+ 2M) < 3\varepsilon.

Следовательно,

P(ξn2ξ2>3ε)P(ξnξ>εM)+P(ξ>M)<2δ. \mathbb P\big(\vert \xi_n^2 - \xi^2\vert > 3\varepsilon\big) \leqslant \mathbb P \Big(\vert \xi_n - \xi\vert > \frac \varepsilon M\Big) + \mathbb P(\vert \xi\vert > M) < 2\delta.

Последнее неравенство выполняется для всех достаточно больших nn, при которых первое слагаемое меньше δ\delta; этого же всегда можно достичь за счёт увеличения nn, поскольку по условию ξnPξ\xi_n \stackrel{P}{\to} \xi. В силу произвольности δ\delta отсюда заключаем, что

limnP(ξn2ξ2>3ε)=0,\lim\limits_{n\to\infty} \mathbb P\big(\vert \xi_n^2 - \xi^2\vert > 3\varepsilon\big) = 0,

то есть последовательность ξn2\xi_n^2 сходится по вероятности к случайной величине ξ2\xi^2.

Пользуясь результатами этих упражнений, заключаем, что
(Xn)2Pθ12\big(\overline{X}_n\big)^2 \stackrel{P}{\to} \theta_1^2 и
SnPθ2θ12=Vξ\overline{S}_n \stackrel{P}{\to} \theta_2 - \theta_1^2 = \mathbb V\xi, и, стало быть, оценка Sn\overline S_n состоятельна.

Методы оценки параметров

До этого мы обсуждали разные приятные свойства оценок, а теперь рассмотрим некоторые методы, позволяющие систематически получать по выборке оценки параметров с нужными свойствами.

Метод моментов

Пусть выборка X1,,XnX_1, \ldots, X_n получена сэмплированием из некоторого семейства распределений Fθ(x)F_{\boldsymbol \theta}(x) с параметрами θ=(θ1,,θm)\boldsymbol \theta = (\theta_1, \ldots, \theta_m). Метод моментов для оценки этих параметров заключается в приравнивании выборочных моментов

Xkn=1nj=1nXjk \overline{X^k}_n = \frac 1n\sum\limits_{j=1}^n X_j^k

к теоретическим

αk(θ)=+xkdFθ(x). \alpha_k(\boldsymbol \theta) = \int\limits_{-\infty}^{+\infty} x^k dF_{\boldsymbol \theta}(x).

Решая полученную систему уравнений αk(θ)=Xkn\alpha_k(\boldsymbol \theta) = \overline{X^k}_n, 1km1\leqslant k \leqslant m, находим оценки параметров θ^k\widehat \theta_k.

Пример. Оценим параметры нормального распределения N(μ,σ2)\mathcal{N}(\mu, \sigma^2) с помощью метода моментов.

Попробуйте сделать сами, прежде чем смотреть решение.

Теоретические моменты равны

α1=μ,α2=σ2+μ2.\alpha_1 = \mu,\quad\alpha_2 = \sigma^2 + \mu^2.

Запишем систему:

μ=Xn,\mu = \overline X_n,

σ2+μ2=X2n.\sigma^2 + \mu^2 = \overline {X^2}_n.

Из неё очевидным образом находим μ^=Xn\widehat \mu = \overline X_n,

σ2^=X2n(Xn)2=1nk=1n(XkXn)2.\widehat{\sigma^2} = \overline {X^2}_n - \big( \overline X_n\big)^2= \frac1n \sum\limits_{k=1}^n\big(X_k - \overline X_n \big)^2.

Как видно, оценки по методу моментов в данном случае совпадают с выборочными средним и дисперсией.

Упражнение. Оцените по методу моментов параметры aa и bb для выборки X1,,XnX_1, \ldots, X_n из U[a,b]U[a, b].

Ответ

Решая систему уравнений α1=a+b2=Xn\alpha_1 = \frac{a+b}2 = \overline X_n, α2=a2+ab+b23=X2n\alpha_2 = \frac{a^2+ab + b^2}3 = \overline{X^2}_n, находим

a^=Xn3(X2nXn2),b^=Xn+3(X2nXn2) \widehat a = \overline X_n - \sqrt{3 (\overline {X^2}_n - \overline X_n^2)}, \quad \widehat b = \overline X_n + \sqrt{3 (\overline {X^2}_n - \overline X_n^2)}

Таким образом, согласно методу моментов оценки для границ отрезка отстоят от выборочного среднего на выборочное стандартное отклонение, помноженное на 3\sqrt 3.

При некоторых условиях на регулярность семейства распределений Fθ(x)F_{\boldsymbol \theta}(x) оценка по методу моментов получается состоятельной и асимптотически нормальной.

Метод максимального правдоподбия

Пусть, как обычно, выборка X1,,XnFθ(x)X_1, \ldots, X_n \sim F_\theta(x).
Правдоподобие (функция правдоподобия, likelihood) выборки X1,,XnX_1,\ldots, \ldots X_n — это просто её совместная pmf или pdf. Вне зависимости от типа распределения будем обозначать правдоподобие как

L(θ)L(X1,,Xnθ)=p(X1,,Xnθ).\mathcal L(\theta) \equiv L(X_1, \ldots, X_n \vert \theta) = p(X_1, \ldots, X_n \vert \theta).

Если выборка i.i.d., то функция правдоподобия распадается в произведение одномерных функций:

L(X1,,Xnθ)=k=1np(Xkθ).L(X_1, \ldots, X_n \vert \theta) = \prod\limits_{k=1}^n p(X_k\vert \theta).

Оценка максимального правдоподобия (maximum likelihood estimation, MLE) максимизирует правдоподобие:

θ^ML=argmaxθL(θ) \widehat \theta_{\mathrm{ML}} = \arg \max\limits_{\theta} \mathcal L(\theta)

Поскольку максимизировать сумму проще, чем произведение, обычно переходят к логарифму правдоподобия (log-likelihood). Это особенно удобно в случае i.i.d. выборки, тогда

θ^ML=argmaxθlogL(θ)=argmaxθk=1nlogp(Xkθ). \widehat \theta_{\mathrm{ML}} = \arg \max\limits_{\theta} \log \mathcal L(\theta) = \arg \max\limits_{\theta} \sum\limits_{k=1}^n \log p(X_k\vert \theta).

Пример. В результате nn подбрасываний монеты выпало kk «орлов» и nkn-k «решек».
Оценим вероятность выпадения «орла» методом максимального правдоподобия.

Пусть pp — вероятность выпадения «орла», тогда правдоподобие равно

L(p)=pk(1p)nk.\mathcal L(p)=p^k (1-p)^{n-k}.

Дифференцируя логарифм правдоподобия

logL(p)=klogp+(nk)log(1p)\log \mathcal L(p) = k\log p + (n-k)\log(1-p)

и приравнивая к нулю производную, находим

kp=nk1p    k(1p)=(nk)p    p=kn. \frac kp = \frac{n-k}{1-p} \iff k(1-p) = (n-k)p \iff p = \frac kn.

Нетрудно убедиться, что это точка максимума. Итак, оценка максимального правдоподобия p^ML=kn\widehat p_{\mathrm{ML}} = \frac kn вероятности «успеха» в схеме Бернулли вполне ожидаемо оказалась равна доле «успехов» в серии из nn испытаний.

Упражнение. Пусть i.i.d. выборка X1,,XnX_1, \ldots, X_n взята из пуассоновского распределения с параметром λ\lambda. Найдите его оценку максимального правдоподобия.

Ответ

λ^ML=Xn=1nk=1nXk.\widehat \lambda_{ML} = \overline X_n = \frac 1n \sum\limits_{k=1}^n X_k.

Методом максимального правдоподобия можно оценить сразу несколько параметров.

Пример. Найдём MLE-оценки параметров распределения N(μ,τ)\mathcal N(\mu, \tau) по i.i.d. выборке X1,,XnX_1, \ldots, X_n.

Запишем правдоподобие:

L(μ,τ)=k=1n12πτexp(Xkμ)22τ. \mathcal L(\mu, \tau) = \prod\limits_{k = 1}^n \frac{1}{\sqrt{2\pi\tau}} \exp{\frac{-(X_k - \mu)^2}{2\tau}}.

Перейдём к log-likelihood:

logL(μ,τ)=n2(logτ+ln2π)12τk=1n(Xkμ)2. \log \mathcal L(\mu, \tau) = -\frac{n}{2}(\log{\tau} + \ln{2\pi}) - \frac{1}{2\tau} \sum\limits_{k = 1}^n (X_k - \mu)^2.

Приравняем частные производные по μ\mu и τ\tau к нулю:

logLμ=1τk=1N(Xkμ)=0, \frac{\partial \log \mathcal L}{\partial \mu} = \frac{1}{\tau}\sum\limits_{k = 1}^N (X_k - \mu) = 0,

logLτ=nτ+1τ2k=1n(Xkμ)2=0, \frac{\partial \log \mathcal L}{\partial \tau} = -\frac{n}{\tau} + \frac{1}{\tau^2}\sum\limits_{k = 1}^n (X_k - \mu)^2 = 0,

откуда μ^ML=Xn\widehat\mu_{\mathrm{ML}} = \overline{X}_n – выборочное среднее, τ^ML=1nk=1nXk2(Xn)2\widehat\tau_{\mathrm{ML}} = \frac{1}{n} \sum\limits_{k = 1}^n X_k^2 - (\overline{X}_n)^2 – выборочная дисперсия.

Упражнение. Пусть i.i.d. выборка X1,,XnU[a,b]X_1, \ldots, X_n \sim U[a, b]. Найдите оценки максимального правдоподобия для параметров aa и bb.

Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)

Оказывается, при поиске MLE не всегда надо дифференцировать. Правдоподобие здесь имеет вид

L(X1,,Xna,b)=1(ba)nk=1nI(Xk[a,b]). L(X_1, \ldots, X_n\vert a, b) = \frac 1{(b-a)^n}\prod\limits_{k=1}^n \mathbb I(X_k \in [a, b]).

При фиксированных иксах и bb это выражение максимально при a=X(1)a = X_{(1)}: ведь если взять чуть больше, то произведение индикаторов обнулится, если меньше — то правдоподобие уменьшится за счёт увеличения (ba)n(b-a)^n. По аналогичным соображениям b^ML=X(n)\widehat b_{\mathrm{ML}} = X_{(n)}.

Свойства оценки максимального правдоподобия

  • состоятельность: θ^MLPθ\widehat \theta_{\mathrm{ML}} \stackrel{P}{\to} \theta;
  • инвариантность относительно параметризации: если θ^ML\widehat \theta_{\mathrm{ML}} — MLE-оценка для θ\theta, то φ(θ^ML)\varphi\left( \hat{\theta}_{ML} \right) — MLE-оценка для φ(θ)\varphi(\theta);
  • асимптотическая нормальность: θ^MLθse^DN(0,1)\frac{\widehat \theta_{\mathrm{ML}} - \theta}{\widehat{\mathrm{se}}} \stackrel{D}{\to} \mathcal N(0,1);
  • асимптотическая оптимальность: при достаточно больших nn оценка
    θ^ML\widehat \theta_{\mathrm{ML}} имеет минимальную дисперсию.
Чтобы добавить в заметки выделенный текст, нажмите Command + E

Пройдите квиз по параграфу

Чтобы закрепить пройденный материал
Предыдущий параграф16.5. Независимость и условные распределения вероятностей
Следующий параграф16.7. Энтропия и семейство экспоненциальных распределений

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.